生成式建模入门：超越判别分析

我们正从判别式建模，通过学习条件概率 $P(y|x)$ 来解决分类与回归任务，转向更复杂的生成式建模领域。我们的核心目标现在转向密度估计：学习数据本身的完整底层分布 $P(x)$。这一根本性转变使我们能够捕捉高维数据集中错综复杂的依赖关系和结构特征，不再局限于简单的边界划分，而是实现对数据的真正理解与生成合成。

1. 生成式目标：建模 $P(x)$

生成式模型的目标是估计训练数据 $X$ 所源自的概率分布 $P(x)$。一个成功的生成式模型能够完成三项关键任务：(1) 密度估计（为输入 $x$ 分配概率得分），(2) 采样（生成全新的数据点 $x_{new} \sim P(x)$），以及 (3) 无监督特征学习（在潜在空间中发现有意义且解耦的表示）

2. 分类：显式与隐式似然

生成式模型从根本上根据其对似然函数的方法进行分类。显式密度模型，例如变分自编码器（VAEs）和流模型，定义了一个数学似然函数并尝试最大化它（或其下界）。隐式密度模型，最著名的例子是生成对抗网络（GANs）则完全跳过似然计算，转而学习一种映射函数，通过对抗训练框架从分布 $P(x)$ 中采样。

数据合成与特征插值

生成式模型通过生成新颖且高质量的实例（如未见过的人脸、复杂纹理）或在学习到的潜在空间中实现语义插值来展示其能力，体现了模型对数据多样性的掌握。

Examples of AI-generated faces and interpolated features.

问题 1

在生成式建模中，主要关注的分布是什么？

$P(x)$

$P(y|x)$

$P(x|y)$

$P(y)$

问题 2

哪种生成式模型依赖对抗训练并避免定义显式的似然函数？

变分自编码器（VAE）

自回归模型

生成对抗网络（GAN）

高斯混合模型（GMM）

挑战：异常检测

利用密度估计

一家金融机构已在数百万笔合法交易记录上训练了一个显式密度生成模型 $G$。一笔新交易 $x_{new}$ 到达。

目标：判断 $x_{new}$ 是否为异常（欺诈）。

步骤 1

基于对 $P(x)$ 的密度估计，为了将 $x_{new}$ 标记为异常，必须评估哪项统计量？

解答：
模型必须评估概率（或似然）$P(x_{new})$。如果 $P(x_{new})$ 低于预设阈值 $\tau$，意味着该新点在正常交易的学习分布下统计上极不可能出现，则会被标记为异常。